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摘 要 : [目的 /意义 ] 事 件 自动 识别 抽取 是 当前 典籍 主题 挖掘 研究 中 一 个 新 的 重要 课题 ,其 中 事件 触发 词 的 识别 是 一 项 基 
础 的 工作 ,本 研究 旨 在 探索 古代 典籍 中 事件 触发 词 自动 识别 和 分 类 的 通用 方法 。[ 方 法 /过 程 | 首先 运用 LDA 模 
型 对 动词 进行 主题 聚 类 ,归纳 典籍 事件 触发 动词 的 分 类 体系 ;并 依据 聚 类 结果 与 分 类 体系 ,初步 构建 触发 动词 的 
种 子 词 集 。 在 此 基础 上 ,通过 语义 相似 度 计 算 , 对 种 子 词 集 进行 扩展 ,构建 典籍 事件 触发 词语 义 数据 集 。 在 实验 
阶段 ,以 先秦 时 期 的 重要 典籍 《 左 传 ) 为 例 , 对 分 类 体系 构建 和 种 子 词 集 扩展 的 方法 进行 验证 。|[ 结果 /结论 ] 结果 


表明 ,本 文 所 提出 的 典籍 事件 触发 词 识别 方法 可 行 有 效 , 据 此 构建 的 事件 触发 词 集 具有 较 高 可 信和 度 ,未 来 可 进 一 


步 扩大 实验 的 样本 数量 及 范围 。 
词 : 触发 词 识别 词 集 扩展 
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中 随 着 古籍 文本 数字 化 资源 的 快速 增长 以 及 文本 挖 
搬 漳 术 和 人 文 计算 工具 的 不 断 进步 ,古文 信息 处 理 的 
研究 也 日 益 朝 着 智能 化 与 深 语 义 化 的 方向 发 展 。 如 何 
痊 听 有效 地 从 十 文中 提取 和 挖 据 出 广 覆 盖 、 多 层次 、 
有 多 值 的 知识 是 古文 信息 处 理 研究 的 重要 任务 之 
一 它 。 在 典籍 深层 次 文本 分 析 与 挖 据 中 ,需要 将 古籍 
广西 中 的 人 各、 地 名 .事件 .时 间 等 具体 命名 实体 信息 
进行 提取 ,进而 发 现 这 些 不 同 命名 实体 之 间 的 语义 关 
系 ,实现 典籍 文本 的 深度 标注 与 知识 关联 ,构建 典籍 知 
识 库 , 在 此 基础 上 探究 各 种 历史 事件 在 时 间 和 空间 上 


定 事件 类 别 的 过 程 。 目 前 在 面向 一 些 特定 领域 的 现代 
文本 研究 中 ,事件 触发 词 的 识别 取得 了 较 好 的 效果 , 比 
如 在 金融 领域 ”音乐 领域 ”以 及 突 发 事件 ”的 识别 
和 抽取 方面 ) 。 然 而 在 面 对 古 籍 文本 时 ,由 于 古籍 行文 
结构 和 句法 的 特殊 性 ,缺乏 通用 的 触发 词 抽取 规则 ， 
此 在 基础 词典 的 构建 方面 有 待 进一步 的 探索 ,也 尚未 
建立 起 完备 的 典籍 触发 词 分 类 体系 ,在 触发 词 的 识别 
和 类 别 判 定 上 存在 一 定 的 难度 。 

本 文 结合 现代 文本 触发 词 识别 取得 的 进展 ,借助 
触发 词 识别 在 特定 领域 研究 中 采用 的 技术 ,探索 典籍 
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文本 中 


事件 触发 词 的 自动 识别 和 


事件 抽取 方法 。 本 文 


首先 依据 古文 语法 特 得 


F ,运用 LDA 模型 对 典籍 动词 进 


的 演变 规 得 


在 这 一 过 程 中 ,事件 识别 与 抽取 是 实现 


典籍 文本 细 粒 度 组 织 的 重要 手段 ,对 于 典籍 文本 知识 
库 构 建 质量 具有 重要 价值 ,其 中 事件 触发 词 的 识别 又 
是 决定 事件 抽取 与 识别 效果 的 一 项 基本 而 关键 的 工 
作 。 有 研究 表明 ,超过 60% 的 事件 抽取 错误 是 由 于 和 触 
发 词 识别 过 程 中 的 错误 导致 ”。 

触发 词 是 能 够 表征 事件 发 生 的 词语 ,触发 词 识别 
的 过 程 本 质 上 就 是 通过 触发 词 的 自动 抽取 和 分 类 , 判 


行 了 主题 聚 类 ,归纳 了 主题 类 别 ,构建 了 典籍 触发 动词 
分 类 体系 ;随后 根据 分 类 体系 和 聚 类 的 结果 构建 了 触 
发 词 种 子 词 集 , 抽 取 了 词典 语义 特征 及 动词 上 下 文 特 
征 , 进 而 利用 语义 相似 度 计算 等 文本 挖 据 技术 对 种 子 
词 集 进行 了 扩展 ;最 后 本 文 对 提出 的 触发 词 分 类 体系 
和 数据 集 构建 的 方法 均 进 行 了 实证 研究 ,并 对 结果 进 
行 了 人 工 校 验 与 一 致 性 检验 。 结 果 表 明 ,本 文 所 提出 的 
籍 事件 触发 词 数据 集 构 建 方法 具有 较 高 的 可 信和 度 。 
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2 相关 研究 综述 


2.1 触发 词 识 别 抽取 的 相关 研究 

事件 触发 词 指 能 够 表征 事件 发 生 的 词 , 是 决定 事 
件 类 型 最 重要 的 特征 词 。 事 件 触发 词 抽取 包括 触发 词 
检测 与 分 类 ,首先 判定 当前 句子 是 否 存在 事件 触发 词 
以 实现 事件 检测 ,然后 通过 识别 事件 触发 词类 型 判断 
事件 类 型 。 在 信息 抽取 领域 ,事件 触发 词 的 识别 方法 
主要 有 三 种 :基于 统计 的 方法 .基于 规则 的 方法 和 机 器 
学 习 方法 。 

基于 统计 的 方法 是 人 工 统计 出 句子 或 文本 中 的 所 
有 触发 词 ,建立 一 个 触发 词 词典 ,通过 词典 来 判断 其 他 
词语 是 否 为 触发 词 “。 这 种 方法 简单 且 技 术 要 求 不 
高 5 但 它 是 一 种 典型 的 经 验 性 方法 ,要求 训 练 语 料 规模 
足够 大 且 经 典 ,因此 受到 语 料 的 限制 并 不 能 保证 统计 
和 和 测试 结果 的 正确 性 ,统计 过 程 也 费时 费力 。 
基于 规则 的 方法 则 是 事先 定义 一 些 规则 寻找 触发 
词 悦 付 剑 锋 忆 研究 得 出 触发 词 一 般 是 动词 或 名 词 的 结 
论 s 俯 此 规则 过 滤 掉 其 它 词性 的 词语 。 这 一 方法 能 有 
效 弄 提高 触发 词 的 识别 效率 ,但 依赖 初始 规则 的 定义 ， 
并 氏 难 以 涵盖 所 有 特征 ,可 能 过 滤 掉 一 些 本 身 可 以 充 
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当 融 发 词 的 词 ,导致 识别 效果 较 低 ”。 规 则 的 定义 过 
穗 为 左 费 大 量 人 力 ,并 且 往往 针对 特定 数据 集 定义 , 特 
定 覆 据 集 的 规则 或 模式 难以 应 用 到 其 他 的 数据 集 , 泛 
俯 插 能 较 差 ""。 
己基 于 机 器 学 习 的 方法 是 基于 训练 集 进行 自动 学 
习 此 ,是 目前 研究 较 多 使 用 也 最 为 广泛 的 一 种 方式 ， 
它 辐 要 利用 特征 集训 练 仍 发 词 识别 分 类 器 ,把 触发 词 
的 识别 问题 转化 为 了 分 类 问题 ”。 陈 第 第 ”等 运用 
条 件 随机 场 模型 实现 了 事件 抽取 中 的 序列 标记 ,利用 
LDA 主题 模型 建立 了 事件 抽取 和 分 类 系统 ; 景 悦 诚 " 
实现 了 从 数据 抓 取 及 预 处 理 到 人 工 标注 再 到 机 器 学 
习 , 最 终 实现 事件 挖掘 的 完整 流程 ,并 对 新 浪 微 博 进 行 
了 文本 控 据 。 机 器 学 习 的 方法 也 存在 着 不 足 ,一 方面 
需要 足够 量 的 特征 集训 练 分 类 器 ,以 保证 识别 结果 的 
精确 率 ,这 要 求 训练 语 料 和 测试 语 料 都 达到 一 定 的 规 
模 ; 另 一 方面 ,模型 特征 的 有 效 性 决定 着 系统 的 性 能 ， 
大 多 数 研究 也 致力 于 为 事件 抽取 构造 丰富 有 效 的 特征 
集 ,从 而 提升 事件 抽取 方法 的 性 能 。 
2.2 古文 信息 处 理 的 相关 研究 

古文 信息 处 理 就 是 运用 自然 语言 处 理 技术 ,对 数 
字 化 的 古籍 文本 进行 分 词 与 词性 标注 、 命 名 实体 识别 
以 及 古籍 语料库 构建 等 工作 ,在 此 技术 上 对 古籍 文本 


做 关系 抽取 、 深 度 挖 掘 和 可 视 化 展示 "1 ,实现 典籍 数 
据 的 有 效 组 织 和 利用 。 

在 古文 分 词 方面 ,分 为 基于 规则 的 人 工 方法 与 基 
于 统计 的 机 器 学 习 方法 。 基 于 规则 的 方法 主要 是 针对 
一 些 语法 ` 句 式 等 都 有 相同 规律 或 特征 的 结构 化 文本 ， 
如 抒 冰 ”等 将 (汉语 大 词典 》 作 为 通用 分 词 词典 ,通过 
逆向 匹配 进行 古文 分 词 ; 徐 润 华 “ 等 利用 古籍 注 玻 文 
献 的 词汇 语义 知识 ,通过 文献 和 注 疏 自动 对 齐 的 方式 
对 《 左 传 》 进 行 分 词 。 基 于 机 器 学 习 的 方法 从 语 料 中 
提取 文本 特征 ,在 标注 语 料 上 训练 模型 之 后 对 对 未 标 
注 语 料 实施 自动 分 词 , 大 大 提高 了 效率 。 王 嘉 灵 " 等 
采用 最 大 匹配 法 结合 ( 汉 书 》 注 下 表 ,并 利用 CRF 模型 
对 《 汉 书 》 做 了 全 面 系统 的 分 词 研究 ;F. Chen 等 ” 构 
建 了 交互 式 古 文 在 线 自动 分 词 平 台 ,根据 用 户 反馈 实 
时 优化 分 词性 能 。 

古文 的 词性 标注 主要 是 利用 机 器 学 习 方法 进行 ， 
常用 的 模型 有 CRF .HMM 序列 标注 模型 .Bi-LSTM 深 
度 学 习 模 型 等 ,目前 已 经 建立 了 许多 标注 语料库 。 黄 
建 年 等 ” 利用 计算 机 技术 构建 了 农业 古籍 断 句 标点 、 
分 词 标 引 的 原型 系统 。 陈 小 荷 疡 建立 了 古籍 自动 分 
析 工 具 和 先秦 古 汉语 标注 语料库 。 台 湾 研究 院 忆 ] 建 


立 的 汉 籍 电子 文献 “ 瀚 典 全 文 检索 系统 ”, 其 中 包含 汉 
籍 全 文 资料 库 、 古 汉语 语料库 、 近 代 史 全 文 资料 库 等 
18 个 子 库 。 


古文 的 事件 抽取 研究 方面 ,利用 机 器 学 习 和 深度 
学 习 方 法 对 事件 命名 实体 识别 的 研究 取得 了 一 些 成 
果 。 王 东 波 “ 等 对 先秦 典籍 中 历史 事件 基本 实体 做 
了 内 部 的 数量 统计 和 外 部 特征 分 析 之 后 ,构建 了 特征 
模板 。 但 针对 古文 中 事件 抽取 前 的 触发 词 自动 识别 阶 
段 的 研究 相对 较 少 ,大 多 数 研究 重点 在 于 对 事件 要 素 
和 事件 联系 的 挖掘, 如 刘 忠 宝 等 ”建立 了 一 个 可 视 化 
图 谱系 统 ,对 《史记 》 中 的 历史 事件 及 其 组 成 要 素 进 行 
了 自动 抽取 ,并 将 不 同事 件 的 关系 在 知识 图 谱 中 展现 
出 来 。 

综 上 所 述 ,在 古文 的 自动 分 词 及 词性 标注 方面 已 
经 有 了 丰富 的 研究 成 果 。 而 事件 实体 的 识别 和 事件 关 
系 抽取 等 深层 次 文本 挖 气 处 理 , 研 究 还 较为 薄弱 ,限制 
了 古代 文本 资源 加 工 与 整理 的 层次 。 究 其 原因 ,一 方 
面 是 缺乏 古代 汉语 文本 深度 标注 语料库 , 另 一 方面 是 
缺乏 触发 动词 识别 等 的 基础 性 研究 。 

现代 汉语 触发 词 识别 和 事件 关系 抽取 中 取得 了 较 
好 的 成 果 , 这 些 研究 为 面向 典籍 的 触发 动词 识别 提供 
了 方法 论 支撑 。 由 于 古代 汉语 语法 的 特征 ,给 古代 汉 
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喻 雪 寒 ,等 . 典籍 事件 触发 动词 识别 研究 :基于 《 左 传 ) 的 文本 实验 [J]. 图 


Chi naX /合作 期 二 | 
书 请 复出 Ra 为 X 人 4 个 因 到 


语文 本 处 理 带 了 一 定 的 壁 件 , 令 人 欣喜 的 是 当前 古代 
汉语 在 分 词 .命名 实体 识别 等 领域 取得 了 较 好 的 成 果 ， 
这 些 都 为 面向 古文 本 的 触发 动词 识别 奠定 了 良好 的 基 
础 。 本 文正 是 在 此 基础 上 ,对 典籍 文本 中 触发 动词 的 
分 布 规律 与 特征 进行 综合 性 研究 ,进而 利用 自然 语言 
处 理 技术 探索 触发 动词 分 类 体系 构建 的 可 行 性 ,并 以 
小 规模 典籍 为 例 ,初步 验证 了 触发 动词 数据 集 在 典籍 
事件 抽取 中 的 效果 ,为 典籍 文本 深度 挖掘 提供 借鉴 与 
参考 。 
3 ”研究 方法 
3.1 总 体 研究 框架 

本 文 总 体 研究 框架 如 图 1 所 示 , 分 为 典籍 文本 预 
负 理 .触发 动词 分 类 体系 构建 .触发 动词 集 扩展 及 结 
验证 四 个 部 分 。 


人 NU 典 箱 文 本 预 处 理 


典籍 动词 触发 动词 分 触发 动词 
集合 类 体系 构建 种 子 词 集 


PR 触发 动词 
二 图 1 总 体 研究 框架 


首先 通过 语 料 筛选 去 停 用 词 动词 抽取 等 步 又 对 
原 喇 典 籍 语 料 做 预 处 理 ;其 次 运用 LDA 聚 类 模型 对 抽 
取 叫 的 典籍 动词 进行 词义 聚 类 ,结合 了 数量 统计 与 定 
性 红 怕 的 方法 ,构建 触发 词 分 类 体系 ;最 后 将 聚 类 结果 
中 页 特征 词 集合 起 来 形成 触发 词 种 子 词 集 , 通 过 机 器 
学 习 与 词典 相 结 合 的 方式 对 词 集 进行 同义词 扩展 , 形 
成 完整 的 典籍 事件 触发 动词 集 。 在 实验 阶段 ,选取 《 左 
传 ) 文 本 对 上 述 方法 进行 了 验证 ,将 触发 动词 词 表 与 事 
件 句 数据 集 对 应 ,在 此 基础 上 对 事件 句 文 本 做 结构 化 
标注 ,通过 误差 验证 与 一 致 性 检验 验证 触发 动词 数据 
集 的 有 效 性 。 
3.2 ”典籍 事件 触发 词 分 类 体系 的 构建 依据 

由 于 客观 事物 本 身 具有 多 种 属性 和 多 维度 联系 ， 
任何 一 种 分 类 体系 都 存在 自身 的 分 类 依据 ,因此 典籍 
列 含 的 事件 也 存在 多 种 划分 维度 。 人 文学 科 对 于 典籍 
文本 的 研究 中 ,形成 了 关于 社会 事件 主题 的 研究 成 果 。 
对 于 典籍 词汇 的 研究 ,语言 学 领域 建立 了 标准 词汇 场 
研究 词汇 对 社会 现象 及 事件 特征 的 揭示 。《ACE 中 文 
事件 指南 》29 把 事件” 的 特点 定义 为 包含 参与 者 .与 


人 物 特 定 活 动 相关 、 存 在 一 定 的 状态 变化 。 结 合 上 述 
研究 ,本 文 将 关于 典籍 主题 分 析 和 词汇 类 别 研究 的 相 
关 方 法 ,作为 构建 触发 词 分 类 体系 所 参考 的 理论 依据 。 
3.2.1 典籍 的 主题 分 布 规律 

从 语言 的 外 部 环境 来 看 ,词汇 是 社会 生活 中 最 生 
动 .最 客观 的 反映 。 因 此 ,一定 历 史 时 期 的 政治 、 经 济 、 
军事 外交、 风俗 习惯 规章 制度 等 的 变化 ,都 会 在 典籍 
文本 的 词汇 中 显 性 或 隐 性 地 反映 出 来 ”i。 基 于 这 种 
认识 ,发 现 典籍 中 词语 的 内 部 联系 ,探索 建立 有 效 的 词 
义 系统 和 分 类 体系 ,将 这 些 词 汇 置 于 特定 的 社会 文化 
背景 和 语 境 中 进行 分 析 考 察 ,能 够 有 规律 地 揭示 典籍 
文本 所 反映 的 社会 主题 。 
3.2.2 ”典籍 的 动词 语义 场 

从 语言 学 的 角度 来 看 , 想 要 快速 准确 地 了 解 一 个 
时 代 的 社会 发 展 ,从 “标志 性 词汇 场 " 和 “基本 词汇 ”入 
手 , 是 一 种 切实 有 效 的 途径 只 。 一 个 孤立 的 词 反映 社 
会 现象 和 特征 的 能 力 是 有 限 的 ,但 当 多 个 语义 相关 的 
词 被 聚合 时 ,就 可 以 鲜明 有 效 地 反映 具有 相似 特征 的 
社会 现象 和 事件 类 别 。 根 据 词汇 的 相同 特征 和 相互 关 
系 ,将 词汇 分 为 不 同 的 类 别 , 实 现 词义 的 聚合 。 

因此 ,本 文选 取代 表 性 的 典籍 ,通过 聚 类 等 典籍 内 
容 分 析 方 法 实现 对 面向 典籍 的 触发 动词 分 类 体系 构 
建 。 根 据 对 动词 的 统计 结果 ,建立 一 种 自 下 而 上 类 别 
生成 方式 ,构建 触发 动词 分 类 体系 。 
3.3 ”典籍 文本 预 处 理 方法 

预 处 理 阶 段 ,针对 古籍 的 特点 去 除 停 用 词 ,并 提取 
出 语 料 中 的 动词 作为 后 续 主 题 聚 类 和 词 集 构建 的 
基础 。 
3.3.1 语 料 筛选 

本 文 的 研究 是 针对 典籍 中 所 涉及 的 事件 触发 动词 
进行 分 类 识别 ,因此 重点 关注 原始 文本 中 描述 具体 事 
件 或 前述 客观 事实 的 内 容 。 由 于 典籍 文本 内 容 的 复杂 
性 ,如 对 话 类 时间 类 、 引 用 类 的 文本 暂时 不 作为 备 选 
语 料 。 
3.3.2 去 停 用 词 

典籍 文本 中 包含 许多 没有 实际 含义 的 介词 .连词 、 
量词 及 古文 所 特有 的 词缀 等 ,影响 主题 判断 的 准确 度 
和 文本 内 容 分 析 的 质量 。 采 用 了 汉典 古籍 停 用 词 表 ， 
共和 包含 187 个 停 用 词 ,如 “以 . 诸 . 之 ,日 "等 。 根 据 这 一 
停 用 词典 对 典籍 语 料 进 行进 一 步 的 处 理 。 
3.3.3 动词 抽取 

触发 词 分 类 体系 主要 是 针对 文本 中 的 动词 ,本 文 
结合 词性 标注 的 结果 ,利用 正则 表达 式 获 取 原 始 语 料 
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中 动词 。 在 抽取 出 的 动词 中 存在 同 字 异形 的 情况 ,如 
“为 "与 “为 ” ,将 这 些 重复 的 字 词 进行 综合 去 重 ,并 将 
能 愿 动词 ,关系 动词 、 存 现 动词 等 一 些 情况 进行 得 除 ， 
对 结果 进行 词 频 统 计 和 整理 ,获得 典籍 文本 动词 的 词 
频 分 布 表 。 
3.4 触发 动词 分 类 体系 构建 方法 

本 文 利 用 LDA 模型 对 抽取 出 的 动词 进行 了 主题 
聚 类 ,并 对 聚 类 结果 进行 横向 和 纵向 的 对 比 以 及 对 内 
容 定性 分 析 ,确定 主题 数量 ,并 对 主题 内 容 做 有 效 归 


V1 


V | 
澡 
可 
滁 
了 
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CN 
CN 
C0 
QO 〇 LDA 模型 的 算法 输入 是 文档 的 集合 D = 1d1, d2， 


\ 


dj .，,， dn| 和 主题 类 别 数量 m, 通 过 计算 每 一 篇 文 
档 出 在 所 有 Topic 上 的 一 个 概率 值 p, 得 到 概率 的 集合 
dA dpl,dp2,， ,dpm) ;同样 的 ,对 于 文档 中 所 有 动 
词 和 的 集合 W 也 会 求 出 它 对 应 每 个 Topic 的 概率 ,wi = 
(全 1 ,wp2 ,wp3,.……. ,wpm) 。 结 果 得 到 两 个 矩阵 :文档 
到 Bopic 以 及 动词 到 Topic ,这 样 LDA 算法 就 将 文档 和 
词 投 射 到 了 一 组 Topic 上 ,通过 Topic 找 出 文档 与 动词 
之 于 ,文档 与 文档 之 间 , 动 词 与 动词 之 间 潜 在 的 关系 。 
聚 交 后 通过 统计 出 各 个 Topic 上 词 的 概率 分 布 ,那些 在 
该 sppic 上 概率 高 的 动词 ,能 较 好 的 描述 该 Topie 的 
意义 。 

3.4.2 ”确定 聚 类 主题 数量 

在 LDA 聚 类 模型 算法 中 ,主题 数量 的 选择 对 于 结 
果 有 较 大 影响 。 主 题 数量 太 少 会 导致 语义 上 关联 不 大 
的 内 容 合并 到 某 一 个 幅 合 主题 中 ; 主题 数量 太 多 会 导 
臻 属于 同一 主题 的 内 容 分 裂 为 若干 个 不 相关 的 单独 主 
题 ,造成 主题 宛 余 或 “垃圾 "主题 的 产生 ™。 

本 文 在 对 典籍 文本 的 主题 分 类 研究 成 果 归 纳 分 析 
基础 上 , 设 定 了 初步 的 聚 类 主题 数量 ,并 依次 递增 主题 
数目 得 到 多 次 主题 聚 类 的 结果 ,对 结果 进行 横向 和 纵 
向 的 对 比 。 横 向 对 比 主要 是 针对 每 次 实验 结果 中 ,每 
个 主题 下 概率 值 较 高 的 特征 动词 与 其 他 主题 特征 动词 
之 间 的 语义 差别 是 否 显著 。 纵 向 对 比 主要 是 针对 每 次 
实验 结果 中 ,同一 主题 下 的 不 同 特征 动词 之 间 的 语义 
相似 度 是 否 聚合 。 经 过 多 次 实验 找到 横向 和 纵向 对 比 


纳 ,赋予 主题 词 。 
3.4.1 LDA 主题 聚 类 框架 

LDA 主题 模型 是 一 个 基于 贝 叶 斯 统计 的 模型 , 它 
采用 无 监督 学 习 以 及 词 袋 (bag of words) 的 方法 对 语 料 
库 中 隐 含 的 主题 建 模 , 将 每 篇 文档 看 作 是 一 条 词 频 向 
量 , 将 文本 信息 数字 化 之 后 通过 计算 机 进行 建 模 和 计 
算 。 本 文采 用 LDA 主题 模型 进行 动词 主题 聚 类 的 原 
理 如 图 2 所 示 : 


{ di=(dp1,dp2……dpm) 上 


{ Wi=(wplwp2,wp3………W pm) 上 


图 2 动词 主题 聚 类 LDA 模型 原理 


结果 的 平衡 ,确定 合适 的 聚 类 主题 数量 以 尽量 减少 垃 
圾 或 网 合 主题 的 产生 。 
3.4.3 ”归纳 典籍 动词 主题 

在 经 过 LDA 主题 聚 类 之 后 得 到 了 主题 - 特征 动 
词 的 概率 分 布 , 通 过 对 概率 分 布 的 定性 分 析 可 以 对 每 
个 主题 下 特征 动词 所 表征 的 内 容 进 行 有 效 归 纳 , 以 便 
于 揭示 其 深层 语义 内 涵 。 通 常情 况 下 ,主题 聚 类 的 结 
果 对 于 典籍 中 描述 较 多 .文本 信息 较为 丰富 的 事件 主 
题 有 较 好 的 揭示 效果 ,但 不 同 的 典籍 中 往往 还 有 一 些 
特殊 的 事件 类 别 , 需 要 根据 不 同 典籍 的 情况 做 少量 的 
归纳 补充 来 进一步 完善 触发 动词 分 类 体系 的 构建 
结果 。 
3.5 触发 动词 集 扩 展 方 法 

本 文通 过 机 器 学 习 和 词典 释义 方法 对 种 子 词 集 进 
行 扩展 。 基 于 机 器 学 习 的 方法 结合 动词 上 下 文 特征 ， 
计算 出 动词 与 动词 之 间 .不 同事 件 句 之 间 的 余 纺 相似 
度 ,对 结果 进行 统计 分 析 得 到 种 子 词 的 近义词 。 基 于 
词典 释义 的 方法 将 抽取 出 的 动词 与 典籍 词典 进行 匹配 
得 到 对 应 的 释义 ,对 匹配 结果 中 的 通 假 字 等 进行 筛选 
得 到 种 子 词 的 近义词 。 
3.5.1 种 子 词 集 构建 

在 LDA 动词 聚 类 实验 的 结果 中 ,已 经 得 到 了 每 个 
主题 特征 动词 的 概率 分 布 , 根 据 概率 进行 排序 之 后 , 设 
定 阔 值 , 选 出 的 概率 较 高 的 动词 就 是 与 该 主题 具有 强 
相关 性 的 事件 触发 动词 ,将 这 些 词 集合 起 来 作为 不 同 
主题 事件 触发 词 的 种 子 词 集 。 
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3.5.2 文本 特征 抽取 

特征 抽取 主要 包括 对 典籍 词典 中 动词 的 词义 特征 
抽取 以 及 原始 文本 上 下 文 特征 的 抽取 (1) 词 典 语义 特 
征 抽取 。 本 文 根 据 词性 及 词语 出 处 等 ,将 词典 中 非 动 
词 词 性 的 词语 ,不 明 出 处 的 词 条 ,词类 活用 进行 了 人 工 
得 除 。 将 这 些 数据 与 典籍 中 抽取 出 的 动词 做 匹配 ,最 
终 得 到 了 待 分 类 的 备 选 动词 在 词典 中 的 词义 特征 ; 
(2) 上 下 文 特征 抽取 。 典 籍 中 的 动词 多 为 单字 词 且 名 
子 简短 ,上 下 文 特征 不 足 影响 动词 的 词 间 相似 度 计算 
效果 。 因 此 需要 以 句子 为 单位 计算 相似 度 , 寻 找 与 主 
题 相关 的 事件 触发 词 。 本 研究 所 提取 的 上 下 文 特征 主 
要 包括 词性 特征 和 词 共 现 特征 。 词 共 现 的 特征 是 在 对 
语言 学 的 研究 成 果 进行 了 系统 总 结 全 面 .整理 的 基础 
上 得 出 的 经 验 性 结论 ,例如 ,以 . 於 . 诸 、 自 .与 及 "七 
个 容 词 常常 与 战争 , 杀 妥 类 的 动词 共 现 等 。 
词性 特征 是 为 了 在 进行 相似 度 计算 时 对 同一 句子 
司 词性 的 词 赋 予 不 同 的 权重 。 陈 宏 "" 曾 对 汉语 
并列 结构 中 复合 词 的 词性 、 词 序 进行 统计 分 析 。 
绩 洪 表明 ,动词 对 于 揭示 文本 语义 ,标识 文本 特性 具有 
加 地 位 ,在 句法 关系 中 也 具有 重要 的 作用 ,而 文本 中 
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图 3 文本 向 量化 原理 


时 期 的 重要 典籍 .中国 较为 完备 的 编 年 体 史书 《 左 传 》 
为 实验 数据 ,其 跨度 了 春秋 时 期 200 余年 时 间 , 较 好 地 
记录 了 该 时 期 的 社会 发 展 概 况 。 在 辅助 词典 方面 , 选 
取 了 《汉语 大 词典 兴 春 秋 左 传 词典 兴 左 传 详解 词典 》 
作为 同义词 抽取 的 数据 来 源 , 构 建 了 同义词 词典 。 
4.2 触发 动词 分 类 体系 构建 结果 
4.2.1 文本 预 处 理 

将 原始 文本 预 处 理 后 ,得 到 共 17 140 条 短 句 。 随 
后 进行 动词 抽取 和 去 重 处 理 , 最 终 识别 出 2 305 个 动 


的 量词 ,揭示 文本 语义 的 作用 不 明显 。 因 此 要 对 动词 
炭 叶 较 高 权重 ,以 保证 计算 结果 的 准确 和 有 效 。 本 文 
通 坟 对 不 同 词性 在 汉语 句子 结构 中 的 分 布 以 及 语法 规 
则 瞻 统 计 , 结 合 典籍 文本 的 语法 特性 ,将 不 同 词性 的 词 
赋 关 相应 权重 。 

3.333 语义 相似 度 计算 

“三 利用 BERT 深度 学 习 模型 中 的 keras-bert 函数 将 
典 铸 语 料 向 量化 。 分 词 后 句子 的 首尾 分 别 以 [ CLS] 和 
[SEP] 标 记 , 其 中 [ CLS] 位 置 对 应 的 输出 向 量 是 能 代 
表 整 句 的 句 向 量 ,而 [SEP] 是 句 间 的 分 隔 符 ,其 余部 分 
都 是 单字 和 输出。 在 此 基础 上 ,利用 余弦 距 离 作 为 文本 
相似 度 度量 的 方法 计算 文本 间 的 相似 度 。 图 3 是 利用 
Keras-bert 函数 进行 文本 向 量化 处 理 的 流程 图 。 


4 实证 研究 


词 , 词 频 分 布 情况 如 表 1 所 示 : 
表 1 《 左 传 ?动词 抽取 结果 词 频 统计 


词 频 范围 动词 数 /个 示例 
大 于 200 41 使 伐 . 如 \ 归 、 杀 、 入 、 盟 、 奔 . 亡 、 败 
100 -200 46 卒 \ 生 \ 谋 , 帅 、 救 . 讨 , 侵 . 道 \ 纳 聘 
50 -100 72 城 . 逐 下 和 逃 攻 \ 次 ` 御 、 降 .出 奔 
20 -350 175 授 . 击 . 封 \ 赂 .办 \ 陈 改变. 莞 . 朋 
10 -20 197 刑 . 征 . 斩 、 败 绩 、 动 ,作乱 、 缮 、 即 位 
3-9 511 莅 、 弃 、 筑 、 贼 送 蔡 、 赠 
2 273 求 成 .自杀 、 莅 盟 \ 腾 、 知 
1 990 一 


4.2.2 动词 主题 聚 类 

在 进行 横向 对 比 时 发 现 , 聚 类 主题 数量 为 8 时 ,不 
同 主题 之 间 的 特征 动词 语义 差别 最 为 显著 ;在 进行 纵 
向 对 比 时 发 现 , 聚 类 主题 数量 为 8 时 ,同一 主题 下 的 不 


4.1 实验 数据 

古代 汉语 标注 语料库 是 开展 本 文 实 验 研 究 的 重要 
数据 来 源 ,由 于 古代 汉语 的 特殊 性 , 现 阶段 开放 共享 的 
深度 标注 数据 仍然 较为 缺乏 。 围 绕 先 秦 时 期 语料库 的 
建设 ,南京 师范 大 学 “等 研究 机 构 开 展 了 先秦 典籍 文 
本 标注 研究 工作 ,完成 了 典籍 分 词 .词性 标注 等 工作 ， 
该 工作 全 部 由 语言 学 领域 专业 人 员 进 行人 工 标 注 ,是 
进行 典籍 文本 挖掘 的 重要 数据 来 源 。 本 文选 取 了 先秦 


同 特征 动词 语义 相似 度 较 大 。 因 此 ,将 聚 类 主题 数量 
定 为 8 时 效果 最 好 , 聚 类 结果 见 表 2。 

结合 文学 与 史学 的 相关 研究 成 果 , 并 邀请 三 位 领 
域 专家 对 聚 类 结果 进行 评 佑 后 ,增加 了 两 个 主题 : 社 
会 交换 和 生活 风俗 。 社 会 交换 包括 政治 .外 交 、 军 事 
等 社会 活动 中 的 贿赂 行为 、 馈 赠 行 为 .索取 行为 等 。 
生活 风俗 主要 为 祭礼 和 占卜 等 社会 生活 中 的 重要 活 
动 等 。 
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表 2 主题 数 为 8 时 的 动词 聚 类 结果 


主题 1 主题 2 主题 3 主题 4 主题 5 主题 6 主题 7 主题 8 
贡献 度 “动词 ”贡献 度 动词 ”贡献 度 动词 ”贡献 度 动词 贡献 度 动词 ”贡献 度 动词 ”页 献 度 动词 贡献 度 动词 
0.057 得 0.083 谓 0.07 告 0. 085 从 0.227 使 0.201 为 0.079 伐 0.096 可 
0.046 盟 0. 074 对 0.042 取 0.058 及 0.079 杀 0.044 奔 0. 055 立 0.073 入 
0.034 能 0.062 在 0.029 问 0.031 会 0.042 败 0.027 止 0. 055 0. 069 如 
0.032 获 0.062 见 0.02 既 0.027 救 0.031 来 0.025 欲 0.052 执 0.063 死 
0.03 座 0.048 言 0.019 纳 0.027 让 0.026 复 0.023 战 0.043 事 0.048 归 
0.029 行 0. 022 合 0.018 0. 024 伐 0.022 道 0.023 克 0.04 与 0.04 至 
0.027 生 0.019 食 0.015 闻 0.023 许 0.016 0.021 0.038 命 0.04 贞 
0. 024 失 0.014 灭 0.014 辞 0.021 御 0.016 葬 0.019 等 0.028 请 0.04 入 
0.023 谋 0.011 举 0.013 己 0.016 帅 0.016 说 0.018 还 0.023 听 0.033 出 
0. 023 下 0.01 平 0.012 反 0.015 侵 0.015 乘 0.018 逐 0.023 退 0.019 适 
0.02 守 0.01 敬 0.01 好 0.014 慢 0.015 聘 0.018 叛 0.022 往 0.018 弃 

T6019 攻 0.009 处 0.009 当 0.014 目 0.015 归 0.015 入 0.018 去 0.015 成 
于 " 求 0. 009 封 0.007 毁 0.014 讨 0.014 拜 0.014 召 0.017 欲 0.012 致 
Choil6 赋 0.009 保 0.007 遇 0.013 能 0.013 免 0.014 受 0.017 辞 0.011 废 

15 与 0. 009 服 0.007 征 0.012 害 0.013 过 0.014 来 0.015 图 0.01 逃 


@ 最 终 , 本 文 构建 了 一 个 含有 军事 行动 .人口 流动 、 


社 吉 动乱 政治 外 交 、 结 盟 议和 .死亡 严 弗 .婚姻 生育 、 
政策 更 蔡 .社会 交换 .生活 风俗 等 十 个 大 类 , 共 26 个 小 


事件 触发 词 分 类 体系 ,具体 的 类 目 及 分 析 体 系 结 
梅 稀 理 见 表 3。 
4.8> 触发 动词 种 子 词 集 获取 结果 
泛 对 种 子 词 集 的 构建 ,一 方面 是 将 动词 聚 类 实验 的 
结 昭 中 与 主题 具有 强 相 关 性 的 事件 触发 动词 集合 ; 
一 色 而 将 不 同 主题 下 同义词 统计 整理 并 将 其 整合 到 种 
子 刹 集 ,完成 种 子 词 集 的 构建 过 程 ,构建 样 例 见 表 3。 
本 文 共 采 用 三 种 实验 方法 进行 词 集 扩展 对 比 实验 。 

表 3 《 左 传 》 事 件 触 发 词 种子 词 集 示 例 


大 类 小 类 ”种 子 词 示 例 大 类 小 类 ”种 子 词 示 例 
A 军事 行动 Al 战争 伐 \ 侵 , 御 、 帅 || G 婚姻 生育 G1 生育 生 
A2 阅兵 缮 阅 , 简 G2 婚姻 ” 嫁 、 娶 . 首 
A3 会 师 会 . 遇 G3 通奸 ” 通 \ 壁 
B 人 口 流 动 Bl 逃跑 ”出 ` 奔 、 逐 H 政权 更 蔡 HI 册立 立 . 封 
B2 归 国 ”归还 . 纳 H2 即位 ”即位 \ 摄 
C 社会 动乱 Cl 杀 焉 杀 、 狐 I 社会 交换 也 贿赂 赂 . 献 
C2 叛乱 叛乱 D2 赠与 赠 ` 馈 
D 政治 外 交 D1 朝见 见 、 召 B9 借 取 假借 
D2 聘 问 聘 , 来 聘 J 生活 风俗 本 祭 礼 “” 礼 祭 
EE 结盟 议和 El 盟 会 会 . 盟 了 2 占卜 
E2 议和 平 求 成 J3 狩猎 ”和 狩 、 
了 死亡 丧 匡 让 去 世 ” 卒 . 莫 、 绕 考 建筑 城 
F2 表 仪 丧 、 匡 乒 疾 病 。” 病 \ 疾 


(1) 第 一 次 实验 对 没有 标注 词性 的 原文 短 句 进行 
比较 ,计算 相似 度 ,输出 每 一 句 所 对 应 的 相似 度 前 10 
的 句子 ,生成 了 一 个 17140 *n 的 矩阵 ,计算 结果 见 
表 4。 

(2) 第 二 次 实验 在 第 一 次 实验 的 基础 上 加 入 了 词 
性 特征 ,计算 结果 见 表 5。 

(3) 第 三 次 实验 对 原文 中 抽取 的 2305 个 动词 单独 
比较 ,计算 相似 度 生成 矩阵 ,进行 相似 度 计算 ,计算 结 
果 见 表 6。 

通过 三 次 对 比 实验 得 出 ,综合 动词 上 下 文 特 征 和 
词 本 身 的 属性 特征 方案 可 以 提高 近义词 识别 的 准确 
度 ,提升 词 集 扩展 的 效果 。 

4.4 ”一 致 性 检验 

根据 触发 词 的 识别 结果 对 《 左 传 ) 的 事件 句 进行 了 
分 类 标注 和 结构 化 表示 ,运用 Kappa 系数 对 标注 的 结 
进行 了 一 致 性 计算 ,证 明了 触发 词 数据 集 的 可 信 度 。 
4.4.1 事件 句 分 类 标注 

事件 一 般 由 事件 .地 点 ,参与 者 三 要 素 构 成 ,涉及 
到 的 句子 要 素 主 要 包括 :时 间 状 语 、 地 点 状语 .主语 . 谓 
语 、 宾 语 。 对 被 赋予 类 别 的 事件 句 进行 结构 化 的 表示 ， 
表 7 是 事件 句 结构 化 标注 示例 : 

4.4.2 一 致 性 计算 

本 文选 取 Kappa 系数 作为 一 致 性 检验 的 计量 
标 。kappa 系数 的 计算 结果 在 0 ~ 0.2 之 间 时 说 明 结 3 
一 致 性 极 低 (slight) .在 0.21 ~0.4 之 间 时 说 明 结果 的 
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表 4 未 标注 词性 时 的 相似 度 计算 结果 表 


相似 度 值 句子 序号 1 2 3 4 5 6 A 8 9 10 
| 1.000 0.900 05925 0.927 0.949 0.901 0.930 0.887 0.910 0.895 
2 0.900 1.000 0.882 0.918 0.925 0.906 0.906 0. 899 了 0. 902 
3 0. 925 0.882 1.000 0.917 0.921 0.908 0.935 0.874 0.884 0.889 
4 0.927 0.918 0.317 1.000 0.962 .31 0.937 0.894 0.936 0.908 
5 0.949 0.925 0.921 0.962 1.000 0.926 0.935 0.914 0.953 0.921 
6 0.901 0.906 0.908 0.911 0.926 1.000 0.941 0.937 0.897 0.950 
7 0.930 0.906 0.935 0.937 0.935 0.941 1.000 0.941 0.917 0.943 
8 0.887 0.899 0.874 0.894 0.914 0.937 0.941 1.000 0.904 0.952 
9 0.910 0.937 0.884 0.936 0.953 0.897 0.917 0.904 1.000 0.921 
10 0.895 0.902 0.889 0.908 0.921 0.950 0.943 0.952 0.921 1.000 
表 5 标注 词性 时 的 相似 度 计算 结果 表 
相似 度 值 句子 序号 1 2 3 4 5 6 7 8 9 10 
可 1.000 0.954 0.898 0.934 0.972 0.875 0.920 0. 871 0.916 0.857 
> 2 0.954 1.000 0.916 0.951 0.967 0.900 0.939 0.895 0.914 0.873 
CN 3 0.898 0.916 1.000 0.929 0.910 0.914 0.939 0.896 0.862 0.887 
2 4 0.934 0.951 0.929 1.000 0.952 0.899 0.941 0.886 0. 897 0.884 
© 0.972 0.967 0.910 0.952 1.000 0.901 0.935 0.887 0.948 0.876 
SO 6 0.875 0.900 0.914 0.899 0.901 1.000 0.910 0.928 0.892 0.924 
< 十 7 0. 920 0.939 0. 939 0.941 0.935 0.910 1.000 0.907 0.881 0. 896 
© 8 0.871 0.895 0.896 0.886 0.887 0.928 0.907 1.000 0.875 0.943 
CO) 9 0.916 0.914 0. 862 0.897 0.948 0. 892 0.881 0.875 1.000 0.869 
2 10 0.857 0.873 0.887 0.884 0. 876 0.924 0. 896 0.943 0. 869 1.000 
oN 表 6 动词 的 相似 度 计算 结果 表 
相似 疫 值 句子 序号 1 民 3 4 5 6 ¥ 8 9 10 11 12 13 
>< 1 1.000 0.850 0.915 0.915 0.915 0.889 0.888 0. 837 0.910 0.915 0.785 0.903 0.904 
2 0.850 1.000 0.841 0.841 0.841 0.824 0.834 0.781 0. 822 0.841 0.718 0.805 0.837 
nm 3 0.915 0.841 1.000 1.000 1.000 0.897 0.910 0.854 0.908 1.000 0.784 0.910 0.914 
cl 4 0.915 0.841 1.000 1.000 1.000 0.897 0.910 0.854 0.908 1.000 0.784 0.910 0.914 
© 要 0.915 0.841 1.000 1.000 1.000 0.897 0.910 0.854 0.908 1.000 0.784 0.910 0.914 
6 0. 889 0.824 0.897 0.897 0.897 1.000 0.933 0.918 0.929 0.897 0.792 0.931 0.929 
7 0. 888 0.834 0.910 0.910 0.910 0.933 1.000 0.893 0:932 0.910 0.796 0.928 0.946 
8 0.837 0.781 0.854 0.854 0.854 0.918 0.893 1.000 0.878 0.854 0.739 0.893 0.890 
9 0.910 0. 822 0.908 0.908 0.908 0.929 0.932 0. 878 1. 000 0.908 0.811 0.955 0.967 
10 0.915 0.841 1.000 1.000 1.000 0.897 0.910 0.854 0.908 1.000 0.784 0.910 0.914 
11 0.785 0.718 0.784 0.784 0.784 0.792 0.796 0.739 0.811 0.784 1.000 0.800 0.817 
12 0.903 0.805 0.910 0.910 0.910 0.931 0.928 0.893 0.955 0.910 0.800 1.000 0.965 
13 0.904 0.837 0.914 0.914 0.914 0.929 0.946 0. 890 0.967 0.914 0.817 0.965 1.000 
表 7 事件 句 结构 化 表示 示例 一 致 性 一 般 (fair) 在 0.41~0.6 之 间 时 认为 结果 一 臻 
例句 八 月 , 纪 人 伐 夷 。 性 中 等 (moderate ) .在 0.61 ~0.8 之 间 时 认为 结果 具有 
时 间 人 月 高 度 一 致 性 (substantial ) , 当 其 趋 近 于 1 时 ,认为 结果 
接近 完全 一 致 (almost perfect) 。Kappa 系数 的 计算 公 
主语 纪 人 式 如 下 : 
谓语 伐 
宾语 页 =2—? 
1 一 P 
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axbtaxbt+:…axb 
nxn 


其 中 ,p0 是 每 一 类 正确 分 类 的 样本 数量 之 和 除 以 
总 样本 数 ,也 就 是 总 体 分 类 精度 ;n 为 总 样本 个 数 ;每 
一 类 的 真实 样本 个 数 分 别 为 al ,22,… ,ax, 而 预测 出 来 
的 每 一 类 的 样本 个 数 分 别 为 bl ,b2,… ,bx。 
邀请 三 位 标 引 人 员 对 17140 条 文本 标注 ,通过 对 
标 引 结果 进行 统计 后 计算 其 Kappa 系数 ,计算 结果 为 
0.74, 处 于 0.61 -0.8 之 间 ,说明 本 文 所 构建 的 事件 触 
发 动词 集 与 事件 句 语义 数据 集 是 有 效 可 信 的 。 


6 ”总结 及 应 用 展望 


本 文 基于 多 种 文本 挖掘 技术 探索 建立 面向 典籍 事 
传 抽取 的 触发 动词 数据 集 的 方法 和 技术 。 从 构建 方法 
上 > 洒 文 运用 LDA 聚 类 模型 进行 主题 育 类 ,结合 定性 
外 条 方法 ,构建 了 面向 典籍 的 触发 动词 的 分 类 体系 。 
从 构建 结果 上 ,本文 在 细 粒 度 的 字 词 知 识 单元 层面 , 建 
光子 小 规模 的 典籍 事件 触发 词 数据 集 ,基于 词典 资源 
和 对 于 机 器 学 习 两 种 方式 对 种 子 词 集 进行 了 扩展 ,对 
触 效 词 分 类 体系 进行 了 内 容 的 丰富 与 填充 。 初 步 构建 
的 疾 据 集 对 于 典籍 事件 抽取 与 识别 提供 了 标注 训练 
征 对 基于 该 数据 集 ,研究 采用 Bi-LSTM 方法 "及 Ro- 
BERIra-CRF 方法 “对 同类 型 文本 进行 了 事件 抽取 实 
验 3 数据 集 为 上 下 文 特征 获取 提供 了 统计 参考 依据 , 取 
德 较 好 的 实验 效果 。 本 文 的 工作 为 今后 开展 大 规模 
典籍 内 容 挖 所 提供 了 方法 论 参 考 。 
怕 本 文 在 分 类 体系 构建 及 数据 集 扩充 的 研究 方法 上 
还 霖 在 一 些 不 足 之 处 。 首 先 ,典籍 事件 的 元 素 和 实体 
众 贸 , 且 不 同事 件 涉及 的 同一 实体 ,同一 事件 的 不 同 实 
体 之 间 往 往 存 在 着 密切 联系 ,由 于 研究 的 时 间 有 限 ,本 
研究 并 没有 对 它们 之 间 的 联系 做 进一步 的 探究 和 并 
释 , 在 后 续 研究 中 将 进一步 进行 探索 。 其 次 ,对 于 语义 
数据 集 的 有 效 性 和 可 信和 度 的 评估 时 ,仅仅 通过 Kappa 
系数 这 一 指标 来 说 明 , 后 续 研究 中 可 以 探索 更 多 的 评 
估 指 标 ,建立 一 个 全 面 的 数据 集 及 分 类 体系 评估 系统 ， 
例如 通过 机 器 学 习 算法 中 的 多 元 分 类 模型 对 标注 数据 
进行 试验 比 对 。 最 后 , 受 限于 精 加 工 古 文本 语料库 的 
缺乏 ,本文 的 实验 数据 偏 少 ,在 后 续 的 研究 中 将 扩大 处 
理 样 本 的 规模 和 数量 ,对 上 十 .中古 和 近 古 不 同 历史 时 
期 的 文本 进行 对 比 ,扩大 构建 的 触发 动词 数据 集 的 数 
量 和 覆盖 度 , 为 典籍 文本 内 容 深度 加 工 提供 数据 支撑 。 
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Absiract: | Purpose/significance | Automatic event recognition and extraction is an important topic in current 
research on topic mining of ancient classics. Among them, the recognition of event trigger words is a basic work, 
which determined the quality of event extraction. This article aims to explore the general methods of automatic recog- 
nition and classification of event trigger words in ancient classics. | Method/ process | Firstly, we explored the meth- 
od of trigger verb classification construction by LDA topic clustering, which was carried out on the ancient classics 
combined with qualitative analysis. After the classification schema was confirmed, we building a preliminary seeds 
set of trigger words based on the clustering results. Then we expanded the trigger verb seeds set by the semantic simi- 
larity calculation on the ancient classics text resources. In the experiment, we took Zuo Zhuan as the experiment data 
sources, which is an important ancient classics in the Period of Chunqiu. The experiment tested the results of trigger 
verb classification construction and the expanding efficiency of trigger verb from the seeds set. | Result/conclusion | 
The results show that the method proposed in this paper is feasible and effective, and the event trigger word set con- 
structed based on this has a high degree of credibility. The sample size and scope of the experiment can be further ex- 
panded in the future. 
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